Scholar Hub/Chủ đề/#dữ liệu/
Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hìn...
Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hình ảnh, âm thanh, video hoặc bất kỳ định dạng nào khác. Dữ liệu được sử dụng để phân tích, xử lý, lưu trữ, truyền tải hay sử dụng cho mục đích nghiên cứu, quản lý và ra quyết định.
Dữ liệu là một tập hợp các thông tin và thông số có thể thu thập được từ nhiều nguồn khác nhau. Nó có thể tồn tại dưới nhiều dạng khác nhau như văn bản, số, hình ảnh, âm thanh, video, tệp tin hoặc cơ sở dữ liệu.
Dữ liệu có thể thu thập từ nhiều nguồn khác nhau như các cuộc khảo sát, thí nghiệm, hồ sơ bệnh án, truy vấn cơ sở dữ liệu, thiết bị cảm biến, mạng xã hội, trang web, v.v. Dữ liệu thu thập có thể là dữ liệu số (như số liệu thống kê, thông tin tài chính, dữ liệu khoa học) hoặc dữ liệu phi số (như văn bản, hình ảnh).
Dữ liệu đóng vai trò quan trọng trong nhiều lĩnh vực và hoạt động khác nhau. Chẳng hạn, trong lĩnh vực kinh doanh, dữ liệu được sử dụng để phân tích thị trường, dự đoán xu hướng, tối ưu hóa quy trình sản xuất và quản lý khách hàng. Trong lĩnh vực y tế, dữ liệu giúp theo dõi sức khỏe cá nhân, nghiên cứu bệnh lý và cải thiện chẩn đoán và điều trị.
Dữ liệu có thể được xử lý, phân tích, lưu trữ và truyền tải bằng cách sử dụng các phương pháp và công nghệ phổ biến như máy tính, cơ sở dữ liệu, các ngôn ngữ lập trình, học máy và trí tuệ nhân tạo. Công nghệ thông tin và khoa học dữ liệu đã phát triển nhanh chóng trong thời gian gần đây, mở ra nhiều cơ hội mới cho khai thác và sử dụng dữ liệu.
Dữ liệu có hai loại cơ bản là dữ liệu cấu trúc và dữ liệu phi cấu trúc.
Dữ liệu cấu trúc là dữ liệu có tổ chức rõ ràng và được tổ chức thành các bảng, hàng và cột. Dữ liệu cấu trúc thường được lưu trữ trong các cơ sở dữ liệu quan hệ và có thể truy vấn bằng ngôn ngữ truy vấn SQL. Ví dụ về dữ liệu cấu trúc bao gồm dữ liệu học sinh trong một trường học, dữ liệu bán hàng của một cửa hàng, hoặc dữ liệu tài chính của một công ty.
Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc định sẵn và không tổ chức theo mô hình bảng hay cột. Ví dụ về dữ liệu phi cấu trúc bao gồm văn bản, email, tệp tin đa phương tiện (hình ảnh, video, âm thanh), dữ liệu từ các mạng xã hội và các trang web. Dữ liệu phi cấu trúc thường phức tạp hơn và khó khai thác hơn dữ liệu cấu trúc. Để phân tích và sử dụng dữ liệu phi cấu trúc, thường cần sử dụng các công cụ và kỹ thuật xử lý dữ liệu phi cấu trúc như xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và học máy.
Dữ liệu cũng có đặc điểm về ý nghĩa (semantic) và chất lượng (quality). Ý nghĩa của dữ liệu liên quan đến sự hiểu biết và nghĩa vụ của dữ liệu, bao gồm cú pháp, ngữ nghĩa và tác động của dữ liệu lên ngữ cảnh sử dụng. Chất lượng của dữ liệu bao gồm độ chính xác, độ hoàn thiện, tính nhất quán, tính sẵn có và độ tin cậy của dữ liệu.
Dữ liệu cũng có thể được phân loại dựa trên quy mô, độ lớn và tính phân tán. Điều này liên quan đến cách dữ liệu được tổ chức và xử lý. Dữ liệu có thể được phân thành dữ liệu nhỏ (small data), dữ liệu lớn (big data), dữ liệu phân tán (distributed data), v.v.
Dữ liệu là yếu tố cơ bản để đưa ra quyết định thông minh và phát triển các ứng dụng học máy và trí tuệ nhân tạo. Quá trình thu thập, lưu trữ, quản lý và xử lý dữ liệu được gọi là quy trình dữ liệu (data pipeline).
MrBayes 3: Suy luận phát sinh loài Bayesian dưới các mô hình hỗn hợp Bioinformatics - Tập 19 Số 12 - Trang 1572-1574 - 2003
Tóm tắt
Tóm lược: MrBayes 3 thực hiện phân tích phát sinh loài Bayesian kết hợp thông tin từ các phần dữ liệu hoặc các phân tập khác nhau tiến hóa dưới các mô hình tiến hóa ngẫu nhiên khác nhau. Điều này cho phép người dùng phân tích các tập dữ liệu không đồng nhất bao gồm các loại dữ liệu khác nhau—ví dụ: hình thái, nucleotide và protein—và khám phá nhiều loại mô hình cấu trúc kết hợp tham số duy nhất và chung của phần. Chương trình sử dụng MPI để song song hóa kết hợp Metropolis trên các cụm máy Macintosh hoặc UNIX.
Khả dụng: http://morphbank.ebc.uu.se/mrbayes
Liên hệ: [email protected]
* Địa chỉ thông tin liên lạc. #phân tích phát sinh loài Bayesian #mô hình hỗn hợp #dữ liệu không đồng nhất #song song hóa #phát sinh loài
Phương Trình Dạng Khép Kín Dự Báo Độ Dẫn Thủy Lực của Đất Không Bão Hòa Soil Science Society of America Journal - Tập 44 Số 5 - Trang 892-898 - 1980
Tóm tắtMột phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(h), được giới thiệu trong bài báo này. Dạng cụ thể của phương trình này cho phép đưa ra các biểu thức phân tích dạng khép kín cho độ dẫn thủy lực tương đối, Kr, khi thay thế vào các mô hình độ dẫn dự đoán của N.T. Burdine hoặc Y. Mualem. Các biểu thức thu được cho Kr(h) chứa ba tham số độc lập có thể được xác định bằng cách điều chỉnh mô hình giữ nước trong đất đã đề xuất với dữ liệu thực nghiệm. Kết quả thu được từ các biểu thức khép kín dựa trên lý thuyết Mualem được so sánh với dữ liệu độ dẫn thủy lực quan sát cho năm loại đất có đặc tính thủy lực khác nhau. Độ dẫn thủy lực không bão hòa được dự đoán tốt trong bốn trên năm trường hợp. Kết quả cho thấy rằng việc mô tả hợp lý đường cong giữ nước trong đất ở mức chứa nước thấp là quan trọng để dự đoán chính xác độ dẫn thủy lực không bão hòa.
#Herardic #độ dẫn thủy lực #đường cong giữ nước đất #lý thuyết Mualem #mô hình dự đoán #độ dẫn thủy lực không bão hòa #dữ liệu thực nghiệm #điều chỉnh mô hình #đặc tính thủy lực giấy phép.
Bộ công cụ phân tích bộ gen: Một khung MapReduce cho việc phân tích dữ liệu giải trình tự DNA thế hệ tiếp theo Genome Research - Tập 20 Số 9 - Trang 1297-1303 - 2010
Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.
#khoa học #giải trình tự DNA #Bộ Gen 1000 #GATK #MapReduce #phân tích bộ gen #sự biến dị di truyền #công cụ NGS #phân giải song song #SNP #Atlas Bộ Gen Ung thư
Đo Lường Các Tính Chất Đàn Hồi và Độ Bền Nội Tại của Graphene Dạng Đơn Lớp American Association for the Advancement of Science (AAAS) - Tập 321 Số 5887 - Trang 385-388 - 2008
Chúng tôi đã đo lường các đặc tính đàn hồi và độ bền phá vỡ nội tại của màng graphene dạng đơn lớp tự do bằng phương pháp nén nano trong kính hiển vi lực nguyên tử. Hành vi lực-chuyển vị được diễn giải theo khung phản ứng ứng suất-biến dạng đàn hồi phi tuyến và cho ra độ cứng đàn hồi bậc hai và bậc ba lần lượt là 340 newton trên mét (N m\n –1\n ) và –690 Nm\n –1\n . Độ bền phá vỡ là 42 N m\n –1\n và đại diện cho sức mạnh nội tại của một tấm không có khuyết tật. Những thông số này tương ứng với mô đun Young là\n E\n = 1.0 terapascals, độ cứng đàn hồi bậc ba\n D\n = –2.0 terapascals, và sức mạnh nội tại σ\n int\n = 130 gigapascals cho than chì khối. Những thí nghiệm này thiết lập graphene là vật liệu mạnh nhất từng được đo lường, và cho thấy rằng các vật liệu nano hoàn hảo về mặt nguyên tử có thể được thử nghiệm cơ học đối với các biến dạng vượt xa khỏi vùng tuyến tính.
#graphene #tính chất đàn hồi #độ bền phá vỡ #nén nano #kính hiển vi lực nguyên tử #ứng suất-biến dạng phi tuyến #mô đun Young #vật liệu nano #sức mạnh nội tại
Một số mô hình ước tính sự không hiệu quả về kỹ thuật và quy mô trong phân tích bao hàm dữ liệu Management Science - Tập 30 Số 9 - Trang 1078-1092 - 1984
Trong bối cảnh quản lý, lập trình toán học thường được sử dụng để đánh giá một tập hợp các phương án hành động thay thế có thể, nhằm lựa chọn một phương án tốt nhất. Trong khả năng này, lập trình toán học phục vụ như một công cụ hỗ trợ lập kế hoạch quản lý. Phân tích Bao hàm Dữ liệu (DEA) đảo ngược vai trò này và sử dụng lập trình toán học để đánh giá ex post facto hiệu quả tương đối của các thành tựu quản lý, dù chúng được lập kế hoạch hoặc thực hiện như thế nào. Lập trình toán học do đó được mở rộng để sử dụng như một công cụ kiểm soát và đánh giá các thành tựu quá khứ cũng như công cụ hỗ trợ lập kế hoạch cho hoạt động tương lai. Hình thức tỷ lệ CCR được giới thiệu bởi Charnes, Cooper và Rhodes, như một phần của cách tiếp cận Phân tích Bao hàm Dữ liệu, bao hàm cả sự không hiệu quả về kỹ thuật và quy mô thông qua giá trị tối ưu của hình thức tỷ lệ, được thu được trực tiếp từ dữ liệu mà không cần yêu cầu định trước các trọng số và/hoặc phân định rõ ràng các dạng chức năng giả định của mối quan hệ giữa đầu vào và đầu ra. Một sự tách biệt giữa hiệu quả kỹ thuật và hiệu quả quy mô được thực hiện bởi các phương pháp phát triển trong bài báo này mà không làm thay đổi các điều kiện sử dụng DEA trực tiếp trên dữ liệu quan sát. Sự không hiệu quả về kỹ thuật được xác định bởi sự thất bại trong việc đạt được các mức đầu ra tốt nhất có thể và/hoặc việc sử dụng quá nhiều lượng đầu vào. Các phương pháp để xác định và điều chỉnh phạm vi của những sự không hiệu quả này, được cung cấp trong các công trình trước, được minh họa. Trong bài báo hiện tại, một biến mới được giới thiệu, cho phép xác định liệu các hoạt động được thực hiện trong các vùng có lợi suất tăng, không đổi hay giảm (trong các tình huống đa đầu vào và đa đầu ra). Các kết quả được thảo luận và liên hệ không chỉ với kinh tế học cổ điển (đầu ra đơn) mà còn với các phiên bản kinh tế học hiện đại hơn được xác định với “lý thuyết thị trường có thể tranh đấu.”
#Phân tích bao hàm dữ liệu #không hiệu quả kỹ thuật #không hiệu quả quy mô #lập trình toán học #lý thuyết thị trường có thể tranh đấu
Cổng thông tin cBio Genomics về ung thư: Nền tảng mở cho khám phá dữ liệu genomics ung thư đa chiều Cancer Discovery - Tập 2 Số 5 - Trang 401-404 - 2012
Tóm tắt
Cổng thông tin cBio Genomics về ung thư (http://cbioportal.org) là một nguồn tài nguyên truy cập mở để khám phá tương tác các bộ dữ liệu genomics ung thư đa chiều, hiện đang cung cấp truy cập tới dữ liệu từ hơn 5.000 mẫu khối u thuộc 20 nghiên cứu về ung thư. Cổng thông tin cBio Genomics về ung thư giảm đáng kể rào cản giữa dữ liệu genomics phức tạp và các nhà nghiên cứu ung thư, những người muốn tiếp cận nhanh chóng, trực quan và chất lượng cao với các hồ sơ phân tử và thuộc tính lâm sàng từ các dự án genomics ung thư quy mô lớn và giúp các nhà nghiên cứu chuyển đổi các bộ dữ liệu phong phú này thành các hiểu biết sinh học và ứng dụng lâm sàng. Cancer Discov; 2(5); 401–4. ©2012 AACR.
#Genomics ung thư #cổng thông tin cBio #dữ liệu đa chiều #nghiên cứu ung thư #bộ dữ liệu genomics #phân tử và thuộc tính lâm sàng
Haploview: phân tích và trực quan hóa bản đồ LD và haplotype Bioinformatics - Tập 21 Số 2 - Trang 263-265 - 2005
Tóm tắt Tóm lược: Nghiên cứu trong vài năm qua đã tiết lộ cấu trúc haplotype đáng kể trong bộ gen người. Việc mô tả các mẫu hình này, đặc biệt trong bối cảnh các nghiên cứu liên kết di truyền y học, đang trở thành một hoạt động nghiên cứu thường xuyên. Haploview là một gói phần mềm cung cấp tính toán các thống kê mất cân bằng liên kết cũng như các mẫu haplotype quần thể từ dữ liệu kiểu gen gốc trong một giao diện trực quan và tương tác. Khả dụng: http://www.broad.mit.edu/mpg/haploview/ Liên hệ: [email protected] #Haploview #haplotype #linkage disequilibrium #giao diện trực quan #dữ liệu kiểu gen #nghiên cứu liên kết di truyền y học
Phân tích phương sai phân tử suy ra từ khoảng cách giữa các haplotype DNA: ứng dụng dữ liệu hạn chế của DNA ty thể người. Genetics - Tập 131 Số 2 - Trang 479-491 - 1992
Toát yếu
Chúng tôi trình bày một khung nghiên cứu về sự biến đổi phân tử trong một loài. Dữ liệu về sự khác biệt giữa các haplotype DNA đã được tích hợp vào một định dạng phân tích phương sai, xuất phát từ ma trận khoảng cách bình phương giữa tất cả các cặp haplotype. Phân tích phương sai phân tử (AMOVA) này cung cấp các ước tính về thành phần phương sai và các đồng vị thống kê F, được gọi là phi-statistics, phản ánh sự tương quan của độ đa dạng haplotype ở các cấp độ phân chia thứ bậc khác nhau. Phương pháp này khá linh hoạt để thích ứng với các ma trận đầu vào thay thế, tương ứng với các loại dữ liệu phân tử khác nhau, cũng như các giả định tiến hóa khác nhau, mà không làm thay đổi cấu trúc cơ bản của phân tích. Ý nghĩa của các thành phần phương sai và phi-statistics được kiểm định bằng cách tiếp cận hoán vị, loại bỏ giả định về chuẩn tính thông thường trong phân tích phương sai nhưng không phù hợp cho dữ liệu phân tử. Áp dụng AMOVA cho dữ liệu haplotype DNA ty thể của con người cho thấy, sự phân chia dân số được giải quyết tốt hơn khi một số biện pháp khác biệt phân tử giữa các haplotype được đưa vào phân tích. Tuy nhiên, ở cấp độ nội bộ loài, thông tin bổ sung từ việc biết quan hệ phân loại chính xác giữa các haplotype hoặc thông qua việc dịch phi tuyến thay đổi vị trí hạn chế thành độ đa dạng nucleotide không làm thay đổi đáng kể cấu trúc di truyền dân số suy luận. Các nghiên cứu Monte Carlo cho thấy việc lấy mẫu vị trí không ảnh hưởng căn bản tới ý nghĩa của các thành phần phương sai phân tử. Việc xử lý AMOVA dễ dàng mở rộng theo nhiều hướng khác nhau và cấu thành một khung hợp lý và linh hoạt cho việc phân tích thống kê dữ liệu phân tử.
#phân tích phương sai phân tử #haplotype DNA #phi-statistics #phương pháp hoán vị #dữ liệu ty thể người #chia nhỏ dân số #cấu trúc di truyền #giả định tiến hóa #đa dạng phân tử #mẫu vị trí
Ngân hàng Sinh lý, Bộ công cụ Sinh lý, và Mạng Sinh lý Ovid Technologies (Wolters Kluwer Health) - Tập 101 Số 23 - 2000
Tóm tắt
—Nguồn lực Nghiên cứu Đối với Tín hiệu Sinh lý Phức tạp mới ra mắt, được tạo ra dưới sự bảo trợ của Trung tâm Nguồn lực Nghiên cứu Quốc gia của Viện Y tế Quốc gia, nhằm kích thích các nghiên cứu hiện tại và khám phá mới trong nghiên cứu các tín hiệu tim mạch và các tín hiệu sinh y học phức tạp khác. Nguồn lực này có 3 thành phần phụ thuộc lẫn nhau. Ngân hàng Sinh lý (PhysioBank) là một kho lưu trữ lớn và đang phát triển nhanh các bản ghi kỹ thuật số được xác định rõ về tín hiệu sinh lý và dữ liệu liên quan để sử dụng bởi cộng đồng nghiên cứu sinh y học. Hiện tại, nó bao gồm các cơ sở dữ liệu về tín hiệu sinh y học đa thông số từ hệ tim-phổi, thần kinh và các cơ sở dữ liệu khác từ những người khỏe mạnh cũng như từ các bệnh nhân mắc nhiều tình trạng khác nhau có ý nghĩa lớn đối với sức khỏe cộng đồng, bao gồm loạn nhịp nguy hiểm đến tính mạng, suy tim sung huyết, ngưng thở khi ngủ, rối loạn thần kinh và lão hóa. Bộ công cụ Sinh lý (PhysioToolkit) là một thư viện phần mềm nguồn mở cho xử lý và phân tích tín hiệu sinh lý, phát hiện các sự kiện có ý nghĩa sinh lý sử dụng cả kỹ thuật cổ điển và phương pháp mới dựa trên vật lý thống kê và động lực phi tuyến, hiển thị và mô tả tín hiệu tương tác, tạo cơ sở dữ liệu mới, mô phỏng các tín hiệu sinh lý và tín hiệu khác, đánh giá định lượng và so sánh các phương pháp phân tích, và phân tích các quá trình không ổn định. Mạng Sinh lý (PhysioNet) là diễn đàn trực tuyến để phổ biến và trao đổi các tín hiệu sinh y học đã ghi và phần mềm nguồn mở để phân tích chúng. Nó cung cấp các cơ sở cho việc phân tích hợp tác dữ liệu và đánh giá các thuật toán mới được đề xuất. Ngoài việc cung cấp quyền truy cập điện tử miễn phí vào dữ liệu của PhysioBank và phần mềm của PhysioToolkit thông qua Mạng Lưới Toàn Cầu (http://www.physionet.org), PhysioNet cung cấp các dịch vụ và đào tạo thông qua các hướng dẫn trực tuyến để hỗ trợ người dùng với các mức độ chuyên môn khác nhau.
#Tín hiệu sinh lý phức tạp #Ngân hàng Sinh lý #bộ công cụ nguồn mở #diễn đàn trực tuyến #hợp tác nghiên cứu #dữ liệu sinh học #phân tích tín hiệu #sinh lý học thần kinh #sức khỏe cộng đồng
Graphene và Oxit Graphene: Tổng hợp, Tính chất và Ứng dụng Advanced Materials - Tập 22 Số 35 - Trang 3906-3924 - 2010
Tóm tắtGraphene đang thu hút sự quan tâm mạnh mẽ trong các lĩnh vực như vật lý, hóa học và khoa học vật liệu, cùng nhiều lĩnh vực khác. Sự quan tâm đến các tính chất vật lý đặc biệt, khả năng điều chỉnh hóa học và tiềm năng ứng dụng của graphene đã tạo ra hàng ngàn công trình nghiên cứu và một nhịp độ nghiên cứu đang gia tăng, làm cho việc đánh giá các nghiên cứu này trở nên kịp thời. Bài báo này cung cấp cái nhìn tổng quan về các phương pháp tổng hợp, tính chất, và ứng dụng của graphene và các vật liệu liên quan (chủ yếu là oxit graphit và các huyền phù keo cùng các vật liệu từ chúng), từ góc nhìn của khoa học vật liệu.
#graphene #oxit graphene #tổng hợp #tính chất #ứng dụng #khoa học vật liệu #vật lý #hóa học #oxit graphit #huyền phù keo